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基于 稠密 连接 记忆 神经 网 络 的 文本 推理 
潘 永 华 ， 闭 应 洲 '， 潘 怀 奇 ， 郑 思 埠 


(广西 师范 学 院 计算 机 与 信息 工程 学 院 , 南宁 530001) 


摘 要 : 由 于 传统 的 端 到 端 记 忆 神 经 网 络 模型 特征 表示 能 力 不 足 ， 无 法 很 好 地 表示 各 个 记忆 之 间 的 联系 ， 导 致 其 在 
数据 集 pbAbI 中 的 位 置 推理 和 路 径 查 找 问题 正确 率 不 高 。 针 对 此 问题 ， 提 出 了 一 种 结合 稠密 连接 和 多 层 感知 机 的 记 
忆 和 神经 网 络 。 该 模型 利用 稠密 连接 与 全 连接 层 获 取 关 系 特征 ， 增 强 了 模型 的 特征 表示 能 力 。 利 用 bAbl 数据 集 对 模 
型 进行 推理 正确 率 的 评估 ， 实 验 结果 表明 ， 与 传统 的 记忆 神经 网 络 以 及 端 到 端 记 忆 神 经 网 络 相 比 ， 该 模型 能 有 效 提 
升 文本 推理 的 正确 率 。 

关键 词 : 记忆 神经 网 络 ; 稠密 连接 ; 文本 推理 ; 多 层 感 知 机 ; 特征 表示 
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Text reasoning base on densely connective memory networks 


Pan Yonghua, Bi Yingzhou!, Pan Huaiqi, Zheng Sixia 
(School of Computer & Information Engineering, Guangxi Teachers Education University, Nanning 530001, China) 


Abstract: Because the traditional end-to-end memory networks model had insufficient feature representation ability, it 
could not well represented the relationship between each memory, which leds to the low accuracy of location reasoning and 
path finding in the bAbI dataset. This paper proposed a new memory networks combining density connectivity and 
multi-layer perceptron to solve this problem. This model used density connectivity and full connected layer to capture 
relationship features, which enhanced the capability of feature representation. The proposed model evaluated the accuracy of 
text reasoning using bAbI dataset. The experimental results show that the model can effectively improve the reasoning 
accuracy compare with traditional memory network and the existing end-to-end memory network. 


Key words: memory networks; density connectivity; text reasoning; multi-layer perceptron; feature representation 


0 “引言 推理 和 路 径 查 找 问 题 正确 率 不 高 。 
为 解决 MemN2N 的 问题 ， 本 文 提出 了 稠密 连接 记忆 神 

随 着 如 Siri, Cortana, QQ 小 冰 等 聊天 机 器 人 的 出 现 ， 经 网 络 (densely connective memory network, DenMemN2N). 
聊天 机 器 人 正 越 来 越 广泛 地 应 用 于 日 常生 活 中 。 这 类 聊天 机 其 主要 贡献 包括 : a) 使 用 稠密 连接 加 强 各 跳 间 的 信息 流 ， 使 
器 人 不 仅 需要 能 够 回答 用 户 使 用 自然 语言 提出 的 单个 问题 ， 模型 能 够 使 用 前 面 几 跳 的 信息 ; b) 使 用 门 控 机 制 过 滤 稠 密 连 


还 需要 对 已 有 的 自然 语言 文本 进行 推理 ， 然 后 回答 用 户 的 间 ”” 接 得 到 的 信息 流 ， 只 保留 有 效 信息 ; c) 使 用 多 层 感 知 机 获取 
C. o 题 。 因 此 ， 文 本 推理 受到 越 来 越 多 的 研究 人 员 关 注 。 关系 特征 ， 增 强 了 模型 在 对 象 关 系 上 的 特征 表示 能 力 。 
深度 学 习 (deep learning, DL) 中 已 经 成 为 当前 机 器 学 习 实验 结果 表明 ， 本文 方 法 相 比 于 MemNNs、MemN2N 和 
领域 中 最 有 潜力 的 发 展 方向 。 使 用 神经 网 络 模型 去 解决 自然 。 GMemN2N 的 回答 问题 的 正确 率 有 很 大 提升 。 


语言 处 理 中 的 问题 逐渐 成 为 主流 ， 并 在 文本 分 类 外、 文本 蕴 1 ”相关 工作 
涵 辐 等 方面 取得 了 很 多 成 果 。 然 而 传统 的 神经 网 络 无 法 很 好 

的 解决 文本 推理 问题 ， 这 是 由 于 在 文本 推理 时 需要 记忆 文本 134 记忆 神经 网 络 

中 的 上 下 文 并 通过 上 下 文 推 理 得 到 答案 ， 而 传统 的 神经 网 络 Chopra 等 人 提出 了 MemNNs， 并 将 其 用 于 文本 推理 上 。 
无 法 很 好 地 解决 这 类 长 时 记忆 问题 ， 所 以 人 们 开始 通过 基于 MemNNs 主要 由 记忆 m、 输 入 组 件 、 泛 化 组 件 、 输 出 组 件 和 
记忆 模型 的 神经 网 络 模型 去 解决 文本 推理 问题 ， 其 中 最 具 代 复 组 件 组 成 。MemNNs 文本 推理 的 模型 结构 如 图 1 所 示 。 
表 性 的 模型 之 一 是 记忆 神经 网 络 (memory networks, 考虑 一 个 文本 问答 的 场景 ,提供 一 段 事 实 ( 即 几 个 句子 ), £F 


D 


LH 


MemNN) 由， 并 由 此 衍生 出 端 到 端 记 忆 神 经 网 络 (end-to-end ”对 这 段 事 实 进行 提问 。 下 面 将 通过 这 个 场景 对 MemNNSs 进行 
memory networks, MemN2N) Pl, 讲解 。 

但 是 MemN2N 也 有 许多 不 足 ,这 些 不 足 造 成 了 MemN2N 在 MemNNs 中 输入 组 件 (组 件 了 负责 将 输入 转换 成 内 部 
无 法 很 好 地 解决 bADI 数据 集 外 中 的 位 置 推 理 和 路 径 查 找 问 特征 表示 ， 将 转换 过 程 定 义 为 Ke ， 其 中 x 表示 MemNNS 的 
题 。 本 文 认为 这 是 由 于 MemN2N 模型 特征 表示 能 力 的 不 足 ， 输入 。 在 文本 推理 中 , x 可 以 是 一 段 事实 ， 也 可 以 是 问题 。 
无 法 很 好 地 表示 各 个 记忆 之 间 的 联系 ， 导 致 端 到 端 记 忆 神 经 泛 化 组 件 (组 件 GO) 主 要 负责 更 新 记忆 m.m 是 由 i 索引 的 一 个 


网 络 在 文本 推理 数据 集 bAbI 中 记忆 间 关 系 极为 重要 的 位 置 WAA, m 表示 第 i 个 记忆 。 在 文献 [6] 中 直接 将 100 作为 
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Myw = Ix) (1) 
其 中 : Hoo 为 选择 函数 , 即 组 件 G 仅 更 新 索引 为 Ha 的 记忆 ， 
而 不 修改 记忆 m 的 其 他 部 分 。 在 文本 推理 问题 中 ， 式 (1) 的 x 
通常 为 已 有 的 事实 ; H 通常 是 文本 出 现 的 位 置 。 
输出 组 件 (组 件 0) 负 责 读 取 记忆 并 进行 推理 ， 如 计算 哪 
些 相 关 记 忆 能 得 到 好 的 回复 。 回 复 组 件 (组 件 R) 则 将 组 件 O 
的 输出 作为 输入 ， 最 后 生成 可 以 阅读 答案 。 在 文本 问答 场景 
下 ， 组 件 O 发 现 相关 的 记忆 ， 然 后 R 生成 答案 。 


o = O(I(x),m) (2) 
a —- R(o) (3) 
其 中 : 此 时 o 含有 所 有 与 答案 有 关 的 记忆 的 特征 内 表示 ; a R 
WAWER. 
特征 向 量 
SESE— — AA l 泛 化 组 件 
Memory Slots | Å | 2 3 [ 4 i | N | 
特征 向 量 
[818 — — — M HEA o 回复 组 件 ”一 一 一 > 管 案 文 本 


图 1 基于 MemNNs 的 文本 推理 模型 
Fig.1 Text reasoning base on memnns 

MemN2N 克服 了 MemNNs 无 法 进行 端 到 端 训练 的 缺点 ， 
在 数据 中 进行 端 到 端的 学 习 ， 学 习 的 目标 函数 是 可 微分 的 函 
数 。 受 MemN2N 结构 的 启发 ， 研 究 者 们 提出 了 许多 端 到 端 
模型 。 Kumar 等 人 MI 针对 MemN2N 只 有 静态 记忆 的 缺点 ， 提 
出 了 一 种 使 用 循环 神经 网 络 (recurrent neural network, RNN) 
动态 更 新 记忆 的 动态 记忆 神经 网 络 (dynamic memory 
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段 事 实 的 问题 9 以 及 答案 a。 在 本 文 使 用 的 推理 数据 中 ， 为 
了 方便 评估 结果 ， 本 文 的 “是 一 个 单词 。 设 大 是 一 个 句子 ， 
则 事实 X EH —^ FF Fl] 35x, dE n ABIT RS ew FE 
句子 的 第 i 个 单词 ， 句 子 的 长 度 是 m。 设 语 料 中 词汇 量 的 大 
NN V. 设 /是 一 个 参数 为 9 的 模型 ， 本文 期 望 在 数据 集中 的 
a 与 预测 得 到 的 a 一致 , 设 数 据 集中 的 第 i 个 事实 X, 对 应 的 问 
题 是 4 ， 正 确 答案 是 “ ， 则 文本 推理 可 以 转换 成 关于 f 的 参 
Zr 2 的 参数 优化 问题 ， 其 形式 化 表达 如 下 : 

max (Š jequal(/ Qt, 4,6),)) (4) 


其 中 :equal 函数 判断 模型 /预测 的 答案 与 正确 答案 是 否 一 致 ， 
若 一 致 返回 1， 不 一 致 返回 0。 
2.2 ”稠密 记忆 神经 网 络 
如 图 2 所 示 ， 笛 密 记 忆 神 经 网 络 由 输入 编码 模块 a A 
密 记 忆 模 块 DM 和 输出 模块 O 三 个 主要 部 分 组 成 。 本 文 将 在 
下 面 给 出 各 个 模块 的 细节 。 
2.2.1 输入 编码 模块 
输入 编码 模块 与 MemNNs 中 的 组 件 工 功能 类 似 , 主要 将 
模型 输入 的 文本 转换 成 内 部 特征 表示 。 而 在 具体 实现 中 ， 本 
文 使 用 输入 编码 模块 将 每 一 个 句子 转换 成 一 个 向 量 表示 。 它 
将 输入 序列 的 句子 * 的 每 个 单词 转换 成 一 个 向 量 并 求 和 ， 用 
求 和 得 到 的 向 量 作为 当前 句子 的 向 量 表示 。 本 文 提 出 的 模型 
将 输入 的 句子 中 的 单词 使 用 独 热 表 示 (one-hot representation) 
进行 表示 ， 并 使 用 词 嵌 入 矩阵 将 单词 转换 成 词 向 量 。 设 句子 
x 中 的 ww 的 独 热 表 示 为 8 ， 则 输入 编码 模块 的 形式 化 表达 可 
表示 为 
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e; -bA (5) 


vs (6) 


networks, DMN). Xiong 等 人 中 则 对 DMN 的 门 控 循环 单元 网 
?& (gated recurrent unit, GRU) 四 进行 了 改进 ， 提 升 了 计算 效 
率 ， 并 且 还 将 提出 的 模型 拓展 到 了 视觉 问答 Cvision question 
answering, VQA )。 门 控 端 到 端 记 忆 神 经 网 络 (gated end-to-end 
memory networks，GMemN2N) 改 进 了 原 MemN2N 中 记忆 输 
入 的 更 新 方式 ， 让 记忆 都 要 经 过 门 控 TUO. DJ GMemN2N 
的 门 控 机 制 能 够 动态 地 决定 记忆 如 何以 及 何 时 跳 过 推理 过 程 ， 
对 记忆 网 络 层 的 输入 进行 筛选 。 本 文 提 出 的 DenMemN2N 也 
使 用 GMemN2N 的 门 控 机 制 筛选 记忆 。 

1.2. 增加 有 效 特征 
在 关于 如 何 获取 更 多 的 有 效 特 征 的 研究 中 ，Srivastava 
等 人 00 提 出 了 Highway networks， 使 用 门 控 方 式 获 取 有 效 特 
征 ， 解 决 了 网 络 深度 加 深 、 梯 度 信 息 回 流 受阻 造成 网 络 训练 
困难 的 问题 。Huang 等 人 023 提 出 了 通过 稠密 连接 ， 使 用 前 面 
所 有 层 的 输出 作为 当前 层 的 输入 ， 以 此 强化 层 与 层 之 间 的 信 
息 流 。 
1.3 关系 特征 获取 
对 如 何 获取 两 个 对 象 间 的 关系 特征 方面 , Santoro $ A US] 
提出 了 关系 网 络 (relation network, RN)， 并 将 其 用 于 关系 推理 
E. RN 仅 由 两 个 简单 的 多 层 感知 机 (multi-layer perceptron, 
MLP) 组 成 ， 其 中 一 个 MLP 结构 e C0 对 实体 之 间 的 关系 进 


其 中 : 式 (5) 的 4 是 一 个 可 训练 的 矩阵 ， 本 文 称 之 为 怠 入 矩阵 
(embedding matrix); “是 wm 的 词 向 量 。 式 (6) 将 句子 xz 中 的 每 
个 单词 的 词 向 量 求 和 得 到 了 句子 x 的 向 量 表示 v， 即 句子 x 
的 名 向 量 。 


m | M 
DE 模 f 
HW OX 


图 2 ”稠密 记忆 网 络 架 构 

Fig.2 Densely connective memory networks architecture 
2.2.2 稠密 记忆 模块 
稠密 记忆 模块 将 MemNNs 结构 的 组 件 G 和 O 的 功能 进 
行 了 结合 ， 其 主要 负责 对 记忆 的 加 工 与 推理 ， 是 实现 
DenMemN2N 推理 能 力 的 关键 。 其 结构 如 图 3 所 示 。 

本 文 更 新 记忆 的 方式 与 MemNNs 类 似 , 都 是 将 句子 的 向 
量 表示 作为 记忆 。 其 中 事实 工 与 问题 4 的 嵌入 算 阵 都 为 4， 
但 事实 X 还 使 用 另 一 个 嵌入 矩阵 C 获 取 工 中 句子 的 向 量 表示 。 


行 导 出 ， 另 一 个 MLP 结构 f,00 使 用 es 00 获取 的 实体 关系 进 
行 推理 。 由 此 可 看 出 MLP 能 获取 对 象 间 的 关系 特征 。 


2 ”稠密 记忆 神经 网 络 


2.1 问题 描述 与 定义 
在 文本 推理 问题 中 ， 通 常会 有 一 段 事实 XX， 一 个 基于 这 


其 中 设 a 的 向 量化 表示 为 w 。m; Ae DAKR x ERA 
阵 A 与 嵌入 和 矩阵 C 向 量化 的 结果 ，mi 称 为 输入 记忆 ，c 称 
为 输出 记忆 。 设 输入 记忆 Mi 为 {Miwa,m5,…,ms} ， 设 输出 
记忆 M oupa 为 UM oupa 05050) , ms 表示 记忆 量 (memory size) 
的 大 小 。 


在 获取 
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3 稠密 记忆 模块 


Fig.3 Densely memory module 


记忆 后 ，DenMemN2N 通过 


二 < 


主意 力 机 制 ， 计 算 问 


考虑 如 表 2 中 的 位 置 推理 


问题 。 


答案 需要 
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个 事实 ， 并 


题 与 各 个 记忆 的 相似 度 ， 即 求 两 个 向 量 的 内 积 。 其 计算 过 程 且 需 要 获得 形状 之 间 的 关系 才能 获得 正确 答案 。 为 解决 这 一 
如 下 : 问题 ， 本 文 使 用 稠密 连接 增强 各 跳 间 的 信息 流 ， 然 后 通过 门 
p, = softmax((u )" m; ) (7) 机 制 筛选 出 各 跳 输 入 和 输出 中 有 意义 的 特征 ， 使 模型 能 更 全 
p, = uu) m, (8) 下 地 考虑 各 跳 中 找到 的 相关 事实 ， 最 后 将 这 些 相关 事实 输入 
式 (7) 和 (8) 是 获取 相似 度 n 的 两 种 方式 。 式 (7) 中 的 ” 到 多 层 感 知 机 中 获取 关系 特征 。 就 如 表 2 所 示 ， 当 第 1 句 与 
T fms ce Y es a quaa 第 2 名 对 物体 间 的 关系 进行 描述 ， 本 文 就 需要 结合 两 句 话 的 
Tr softmax MAy someone 二。 在 训练 过 程 中 如 果 训 。 信息， 在 DenMemN2N 中 ， 本 文 使 用 稠密 连接 结构 增强 不 同 
O 练 方式 为 非 线 性 起 始 (non-linear start, non-ls)， 则 通过 式 (7) 获 。”” 跳 中 找到 的 信息 并 使 用 门 控 机 制 加 以 过 滤 ， 使 其 过 滤 一 些 无 
© Hp. 若 使 用 线性 起 始 (linear start, 1s) 方 式 ， 则 在 训练 过 程 中 用 的 信息 (如 例子 中 的 颜色 信息 )。 在 获得 各 跳 有 效 信息 后 ， 
e 前 。 代 通过 式 (8) 获 取 p; , 其中。 是 一 个 超 参 .然后 将 Pp. 与 6 的 ” 本 文 还 需要 通过 这 些 有 效 信息 获取 各 个 物体 (例子 中 的 
e 每 个 元 素 相 乘 求 和 得 到 o。 "triangle""rectangle""square") 间 的 关系 特征 ， 最 后 根据 问题 
< sy pa o 。 与 关系 特征 获取 答案 。 设 第 K 跳 的 门 控 为 6. ， 且 4t>2。 则 第 
e 上 跳 的 计算 流程 可 表示 为 
o 式 (9) 是 实现 注意 力 机 制 的 关键 步 又。DenMemN2N 使 用 pi =softmax((ut m) (10) 
c 注意 力 机 制 寻找 与 问题 相关 度 较 高 的 输入 记忆 mi, 越 相 关 p LA T an 
AI 越 高 , 则 p; 对 应 的 输出 记忆 的 信息 就 能 更 多 地 保留 在 。 中 ， i 
nu 即 认为 输入 的 句子 与 问题 相似 度 越 高 越 有 可 能 与 答案 相关 。 G* ([w,u?,... u) = o (Wk [ut at] 十 天) (12) 
2 但 是 若 只 根据 式 (9) 获 取 输 出 ， 在 面 对 有 多 个 支持 事实 的 ud -oo,. so) OG Qu ast um 
»€ ”问题 时 ， 可 能 无 法 得 到 更 好 的 结果 。 通 过 表 1 的 例子 来 说 明 [s,s ] OQ - G* uu, uh D) 
a 其 问题 。 如 果 仅 通过 计算 问题 与 已 有 事实 相似 度 ， 在 表 1 中 u^" = bnt (ue?) (14) 
c 第 1 句 的 相似 度 是 最 高 的 ， 因 为 都 存在 单词 “milk”。 但 是 要 其 中 : 式 (10) 和 (11) 表 示 获 得 第 上 跳 的 输出 o^ 的 流程 。 式 (12) 
c 得 出 正确 答案 ， 无 法 只 根据 第 1 句 话 来 得 到 答案 ， 还 需要 知 PHIG ESATIA wu, ut 和 o1,0,…,0: 分 别 表示 第 1 
Oo 道 “Mary” 最 后 去 到 哪里 。 因 此 DenMemN2N 还 通过 多 跳 机 MERE k 跳 的 记忆 层 的 输入 和 输出 ，@ 表示 向 量 元 素 对 应 相 
制 进行 相关 项 之 间 的 推理 。 如 图 3 所 示 ， 即 将 第 1 跳 得 到 的 。 3e, c 表示 Sigmoid 函数 。 芭 ,22 则 表示 第 1 跳 ~ 第 k b 
输出 作为 第 2 跳 的 输入 。 这 种 多 跳 机 制 实现 了 自然 语言 的 多 输入 的 串联 , [0',0,…,0] 表 示 第 1 BET SB BEREIT RE. WA 
级 计算 ,也 就 是 需要 将 上 下 文 关 联 的 信息 在 计算 中 联系 起 来 。 是 可 以 训练 的 变量 ， 其 维度 与 模型 的 跳 数 有 关 ， 设 句 向 量 的 
让 下 一 跳 再 通过 求 相 似 度 的 方式 找到 与 上 一 跳 有 关 的 记忆 ， 维度 是 上 ， 则 WA e Rw 。 由 于 使 用 了 稠密 连接 ， 下 一 跳 的 输 
实质 上 就 是 一 个 联想 回忆 的 过 程 ， 使 其 实现 递 进 式 的 推理 。 入 会 得 到 所 有 跳 的 特征 , 然后 所 有 跳 的 特征 会 作为 门 函 数 G 
如 表 1 例子 中 在 第 1 跳 的 输出 中 第 一 句 的 特征 相对 较 多 ， 以 的 输入 并 训练 参数 暴 ,其 目的 是 通过 该 跳 前 面 所 有 跳 的 记录 
此 作为 第 2 跳 的 输入 。 在 进行 相似 度 计算 时 ， 由 于 第 1 跳 的 。” 去 训练 G*，, 使 得 G* 能 够 对 De acusa T RI Do... 0*] 中 的 信息 
输出 含有 “Mary” 相 关 的 信息 ， 所 以 会 使 同样 含有 “Mary” ”进行 筛选 。 式 (13) 使 用 Highway network 的 结构 对 前 * 跳 的 输 
的 第 4 句 权 重 最 高 ， 并 可 以 根据 第 4 句 获得 正确 答案 。 但 是 入 与 输出 信息 进行 过 滤 ， 最 终 输 出 向 量 ws" 。 式 (12) 与 (13) 构 
现实 场景 中 并 非 所 有 推理 都 是 递 进 式 推理 ， 还 有 通过 对 象 间 建 了 一 个 使 用 门 e 的 稠密 连接 , 增强 了 跳 与 跳 之 间 的 信息 流 ， 
关系 的 推理 。 使 得 到 的 wu” 不 仅 包 含 当前 跳 的 信息 ， 也 包含 前 面 几 跳 的 有 
表 1 文本 推理 例子 效 信息 
Table 1 Example of text reasoning 表 2 位 置 推理 例子 
分 类 句子 与 答案 是 否 相 关 Table 2 Example of positional reasoning 
1 Mary got the milk there. V DES 与 答案 是 否 相关 
己 有 事实 2 John moved to the bedroom. 事实 1 The triangle is above the pink rectangle. V 
: 3 Sandra went back to the kitchen. 2 The blue square is to the left of the triangle. V 
4 Mary travelled to the hallway. Y 问题 与 ”3 Is the pink rectangle to the right of the blue 
问题 与 答案 5 Where isthe milk? hallway 14 答案 square? yes 12 
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式 (14) 的 bn* KIR k k HI HEER? (batch ” 半 ， 即 变 为 WW2， 直 到 第 100 代 才 停止 降低 5 的 值 。 训 练 集 
normalization, bn)/zU^l, 2&8 2 跳 的 bn 层 没 有 激活 函数 ， 而 第 批 的 大 小 (batch size) 为 32， 所 有 的 权重 和 偏 置 值 使 用 截断 
3 跳 的 bn 层 激 活 函数 为 Sigmoid 函数 。 最 后 将 bn 层 的 输出 态 分 布 进 行 随机 初始 化 。 其 中 ， 用 于 权重 初始 化 的 正 态 分 
作为 下 一 跳 的 输入 。bn* 的 作用 主要 是 获取 必 ” 中 的 关系 特征 期 望 为 0， 标 准 差 为 0.1; 用 于 偏 置 初始 化 的 值 正 态 分 布 期 
ur 中 不 仅 包 含 当前 跳 的 信息 ， 也 包含 前 几 跳 的 信息 ， 因 此 望 值 为 0.5， 标准 差 为 1。 模型 在 训练 中 只 考虑 距离 问题 最 近 
bn* 能 够 同时 获取 跳 与 跳 之 间 的 关系 特征 与 当前 跳 的 关系 特 的 50 个 句子 , 将 其 作为 模型 的 输入 数据 , 所 有 模型 的 跳 数 均 


e [A 


zB 


征 ， 最 终 获 得 输出 ws A u 作为 下 一 跳 的 输入 。 为 3。 在 本 文 的 实验 中 ， 本 文 的 词 向 量 维度 大 小 为 20。 
如 图 3 所 示 , 第 1 跳 的 流程 中 没有 设置 bn 层 , 这 是 因为 为 了 避免 单 次 训练 的 误差 ， 本 文 将 每 个 任务 执行 30 次 ， 


第 1 跳 前 没有 前 置 的 层 ， 无 须 使 用 稠密 连接 加 强 各 跳 之 间 的 。 ”并 选择 30 次 测试 中 得 到 的 最 高 正确 率 作 为 最 终 的 正确 率 。 


ti E Uit, 所 以 也 不 需要 使 用 bn 层 获 取 各 跳 以 及 记忆 间 的 关系 于 本 文 使 用 的 是 bAbI 数据 集 的 1.2 版 本 , 所 以 本 文 用 新 的 数 
特征 。 据 集 重新 训练 了 MemN2N 。 

稠密 记忆 模块 通过 稠密 连接 增强 各 跳 间 记忆 的 信息 流 ， 3.8 ”实验 结果 
增加 了 各 跳 所 找到 的 关键 信息 在 推理 中 的 作用 。 并 且 还 使 用 模型 的 训练 采用 单一 训练 的 方式 ， 即 将 bAbI 数据 集中 
MLP 获取 关系 特征 , 因此 该 模块 增强 了 模型 的 特征 表示 能 力 。 每 个 任务 单独 进行 训练 bAbI 数据 集中 各 个 任务 的 正确 率 如 
2.2.3 输出 模块 K 3 Win. 

本 模型 的 输出 模块 功能 主要 是 将 稠密 记忆 模块 的 输出 作 本 文 将 DenMemN2N 的 实验 结果 与 文献 [和 的 MemNNs 
为 输入 然后 输出 预测 答案 a 。 输 出 模块 获取 答案 的 公式 为 强 监督 (strongly supervised，SS) 版 本 以 及 文献 [3] 的 MemNNs 

Ê = sofxmax(W,op,, +b,) (15) 弱 监 督 (weakly supervised heuristic，WSH) 版 本 进行 了 对 比 。 

其 中 : W, 是 可 以 训练 的 矩阵 ; oov 则 是 稠密 记忆 模块 的 输出 。 MemNNs 的 强 监 督 版 本 即 知 道 X 中 哪些 事实 与 问题 相关 ， 


如 果 预 测 答案 4 仅 为 一 个 单词 ， 则 5 表示 每 个 单词 作为 答案 将 这 些 信息 用 于 训练 之 中 ; MemNNs 的 弱 监督 版 本 则 不 使 用 


的 概率 分 布 。 除 答案 外 的 任何 监督 信息 进行 训练 。 同 时 还 将 实验 结果 与 

2.3 ”模型 训练 MemN2N 和 GMemN2N 进行 了 对 比 。MemN2N 以 及 
假设 问题 4 的 答案 为 a，, 则 输出 目标 向 量 的 元 素 值 表示 为 GMemN2N 训练 过 程 中 仅 使 用 答案 作为 监督 信息 。 

z j=a (16) 由 表 3 可 知 ， 本 文 提 出 的 DenMemN2N 模型 在 任务 17. 

' [0 jz#a 任务 18 以 及 任务 19 上 都 取得 了 比 MemN2N 以 及 GMemN2N 


JE F] AE SUI E 73g DenMemN2N 的 损失 函数 ， 如 式 (17) 所 ”更 好 的 效果 。 任务 17 与 任务 19 的 结果 比 GMemN2N 分 别提 
示 。 升 了 25.8% 与 2.5%, EE MemN2N 分 别提 升 了 25.4% 和 18.596, 
比 MemNNs 的 SS 版 本 分 别提 升 了 22.6% 和 30.9%。 该 实验 
结果 表明 ， 本 文 方法 很 好 地 解决 了 MemNNs 和 MemN2N 无 


=->，Plog(p) (17) 


本 文 训练 的 优化 方式 选用 随机 梯度 下 降 法 。 为 提升 模型 法 解决 的 任务 17 和 任务 19， 克 服 了 传统 端 到 端 记忆 神经 网 
的 准确 率 和 泛 化 能 力 ， 还 进行 了 如 下 改进 : 络 的 缺点 。 

a) 在 输入 编码 模块 使 用 文献 [4 提出 的 位 置 编码 (position 本 实验 也 同时 对 比 了 Non-LS 与 LS 两 种 获取 相似 度 的 方 
encoding) 和 时 序 编码 ， 并 随机 选择 时 序 编码 中 的 10% 加 入 噪 ”法 在 MemN2N、GMemN2N 和 DenMemN2N 模型 上 的 差别 。 
声 。 通过 表 3 的 结果 可 以 看 出 , 这 两 种 方法 对 path finding 任务 和 

b) 对 梯度 进行 裁剪 ， 若 梯度 张 量 的 L2 范 数 大 于 40， 则 basic induction 任务 有 着 很 大 的 影响 。 在 使 用 LS 时 ， 模 型 获 
L2 标准 化 使 用 40 进行 标准 化 ， 防 止 梯度 爆炸 。 取 了 更 多 的 线性 特征 ， 因 此 可 以 在 basic induction 任务 中 获 

c) 在 预测 模块 的 全 连接 层 以 及 关系 导出 的 全 连接 层 后 加 得 更 佳 的 结果 。 但 是 在 使 用 LS 时 ， 无 法 获取 更 多 的 非 线 性 
入 了 dropout 层 ， 防 止 过 拟 合 。 和 寺 征 ， 因 此 无 法 在 path finding 上 获得 更 好 的 结果 。 而 本 文 提 

d) 在 更 新 记忆 时 ,本 文 使 用 相 邻 权重 捆绑 (adjacent weight 出 的 DenMemN2N 模型 在 positional reasoning 任务 中 ， 使 
typing)， 即 第 1 跳 输 入 记忆 嵌入 抢 阵 为 4 ， 输 出 记忆 内 入 和 拢 Non-LS 的 效果 要 优 于 LS。 笔 者 猜测 这 是 因为 对 象 间 关系 大 


阵 为 G， 则 第 k 跳 的 输入 记忆 嵌入 矩阵 为 4.=GC, 输出 记忆 多 是 非 线 性 特征 ， 所 以 使 用 Non-LS 时 获取 了 更 多 的 非 线 性 

矩阵 为 Cro 特征 ， 取 得 了 更 好 的 效果 。 但 无 论 使 用 哪 种 方法 ， 本 文 提 出 
SpA 的 模型 效果 在 此 任务 上 都 要 优 于 MemN2N 和 GMemN2N. 

3 ”实验 与 分 析 但 是 本 文 提出 的 模型 也 有 明显 的 缺陷 ,任务 16 的 正确 率 

3.1 数据 集 与 数据 预 处 理 都 远 低 于 GMemN2N 以 及 MemN2N。 其 原因 是 LS 对 任务 16 
本 实验 使 用 的 数据 集 为 bAbI 数 据 集 ( 使 用 的 bAbI 数 据 集 的 影响 极 大 ， 但 DenMemN2N 的 BN 层 的 非 线性 激活 函数 极 

版 本 为 1.2)。 表 1 和 2 均 为 bAbI 数据 集中 的 某 个 任务 ， 有 大 的 降低 了 LS 的 作用 。 

组 事实 X、 问 题 9 以 及 答案 a， 其 中 事实 义 为 一 组 句子 。X 4 ”结束 语 

和 9 使 用 词 袋 模型 表示 ，a 使 用 大 小 为 | 的 独 热 向 量 表示 。 = 

并 且 数 据 集中 还 标注 了 与 答案 有 关 的 事实 。 本 文 提出 的 本 文 提 出 了 一 种 使 用 稠密 连接 以 及 门 控 机 制 的 记忆 神经 

DenMemN2N 不 使 用 除 答案 外 的 任何 监督 信息 。 本 文中 仅 使 网 络 一 一 稠密 连接 记忆 神经 网 络 。 实 验 结果 表明 ， 本 文 提出 

用 bAbI 的 10 k 数据 集 进行 实验 ， 即 每 个 任务 中 有 10 000 个 的 基于 稠密 连接 、 门 控 机 制 以 及 多 层 感 知 机 的 稠密 记忆 神经 


问题 。 网 络 模型 能 够 有 效 地 解决 传统 的 端 到 端 记忆 神经 网 络 模型 的 
32 BRE 特征 表示 能 力 不 足 的 问题 ， 更 加 充分 地 获取 记忆 间 的 关系 特 
首先 将 bAbI 数据 集中 训练 集 的 10% 作 为 验证 集 ， 用 于 征 表 示 ， 在 文本 推理 问题 上 得 到 了 更 好 的 结果 。 但 是 新 模型 


上 
超 参 的 调 优 。 学 习 率 q 初始 值 为 0.01， 并 且 每 25 代 减 少 一 ”仍然 存在 一 些 可 以 改进 的 地 方 ， 如 网 络 结构 中 超 参 过 多 、 模 
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型 存在 过 拟 合 问题 以 及 过 参数 化 问题 。 因 此 ， 在 保留 现 有 模 
型 的 框架 下 ， 构 建 一 个 结构 更 简单 、 参 数 更 少 的 模型 将 会 是 


潘 永 华 ， 等 : 基于 稠密 连接 记忆 神经 网 络 的 文本 推理 


今后 研究 的 重点 。 


表 3 bAbIIOk 数据 集训 练 结果 
Table3 Result of bAbI 10k dataset 


» MemNNs MemN2N GMemN2N DenMemN2N 

fem SS WSH Non-LS LS Non-LS LS Non-LS LS 
1:1 supporting fact 100.0 99.9 100.0 100.0 100.0 100.0 100.0 100.0 
2:2 supporting fact 100.0 60.4 99.7 99.7 100.0 99.9 99.2 100.0 
3:3 supporting fact 100.0 20.5 90.7 92.7 95.5 95.0 95.1 93.7 
4:2 argument relation 100.0 63.4 100.0 100.0 100.0 100.0 100.0 100.0 
5:3 argument relation 99.8 78.9 99.4 99.4 99.8 100.0 99.9 99.7 
6:yes/no questions 100.0 50.1 100.0 100.0 100.0 100.0 100.0 100.0 
7:counting 96.9 64.9 96.3 97.1 97.3 98.2 97.4 97.7 
8:lists/sets 99.0 57.3 99.1 99.2 98.6 99.7 99.1 99.0 
9:simple negation 100.0 63.6 99.0 99.2 100.0 100.0 100.0 100.0 
10:indefinite knowledge 100.0 24.0 96.9 97.6 100.0 99.8 100.0 100.0 
11:basic coreference 100.0 74.7 100.0 100.0 100.0 100.0 89.2 100.0 
12:conjunction 100.0 100.0 100.0 100.0 100.0 100.0 100.0 100.0 
13:compound coreference 100.0 87.7 100.0 100.0 100.0 100.0 100.0 100.0 
14:time reasoning 100.0 91.3 100.0 100.0 100.0 100.0 99.9 100.0 
15:basic deduction 100.0 31.2 100.0 100.0 100.0 100.0 100.0 100.0 
16:basic induction 100.0 49.1 58.6 100.0 61.9 100.0 46.8 49.9 
17:positional reasoning 75.4 48.9 72.6 56.3 70.6 72.2 98.0 86.6 
18:size reasoning 97.9 542 95.3 93.3 97.6 91.5 99.1 98.6 
19:path finding 68.1 0.0 80.5 33.5 95.8 69.0 99.0 68.5 
20:agent’s motivation 100.0 95.6 100.0 100.0 100.0 100.0 100.0 100.0 
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